
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
在 GPT-4o 进 iPhone 之前,谷歌 Gemini 抢先了一步完成了手机版的落地。 周三凌晨,在人们期待 OpenAI 「草莓大模型」的时候,谷歌在 Made by Google 活动上正式发布了 Gemini Live,以及一系列 Pixel 硬件产品。
自 2024 年 GPT-4o 出现以来,业内各公司纷纷投入巨大的资源进行 TTS 大模型的研发。近几个月内,中文语音合成大模型如雨后春笋般涌现,如 chattts、seedtts、cosyvoice 等。
不是大模型用不起,而是小模型更有性价比。
训练数据是用 GPT-4o 生成的?那质量不好说了。
就在刚刚,Meta 如期发布了 Llama 3.1 模型。
今天凌晨,OpenAI 突然发布了他们的“最具性价比”的新一代模型 GPT-4o mini。
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。
Moshi 具有彻底改变人机通信的潜力。
最近,一个对标 GPT-4o 的开源实时语音多模态模型火了。